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Классификация фреймов речевого сигнала 
в задачах дикторонезависимого 
распознавания речи 


В статье предлагается метод определения границ речи в поступившем речевом потоке с использованием 
автоматической настройки под шум окружающей среды и звукозаписывающего оборудования, а также 
алгоритм классификации фреймов речевого сигнала в терминах обобщенной фонетической транскрипции. 
Используемые параметры базируются на различных спектральных представлениях сигнала, отражают 
особенности спектральной плотности звуков речи, принадлежащих разным фонетическим классам, что 
обеспечивает дикторонезависимость процесса классификации. 


Введение 


Организация интерактивного взаимодействия пользователя и персонального 
компьютера (ПК) невозможна без средств ввода информации. Естественным способом 
передачи текста и команд для человека является речь. Особенно незаменим такой спо- 
соб ввода для людей с ограниченными возможностями, что делает системы распозна- 
вания речи (СРР) наиболее перспективным подходом к вводу информации в ПК. Тех- 
нологии распознавания речи могут стать неотъемлемой частью: 

1) автоматизированных информационно-справочных систем в сетях сотовой 
и фиксированной связи; 

2) систем госбезопасности в качестве подсистемы поиска набора ключевых слов 
или фраз в речевом потоке; 

3) систем поиска и составления подборок записей по набору ключевых слов или 
фраз, предназначенных для медиа-компаний, ведущих большие базы аудио-видео данных; 

4) модулей автоматического перевода в аудио- видеоаппаратуре, позволяющих 
просматривать фильмы на иностранных языках; 

5) средств автоматической диктовки с тесной интеграцией с операционными систе- 
мами и офисными приложениями, предназначенными для заполнения форм на компью- 
тере, голосового набора текстовых сообщений на мобильном телефоне, создания электрон- 
ных писем без помощи клавиатуры. 

Несмотря на широкое применение технологий автоматического распознавания 
речи, множество проблем все еще остаются нерешенными. Высокую точность распозна- 
вания (95 — 99%) имеют командные системы, работающие с изолированными словами и 
малыми словарями, при этом эффективность их работы сильно зависит от уровня 
шума [1]. Задача распознавания слитной речи еще далека от решения, хотя именно 
такой тип речевого взаимодействия считается наиболее перспективным. Разработан- 
ные на сегодняшний день СРР, имеющие развитые возможности, высокую точность 
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и сравнительно низкие вычислительные затраты, работают с очень ограниченным сло- 
варем, требуют выполнения сложной и длительной процедуры обучения на конкретного 
диктора, что обусловливает невозможность их работы с неограниченным количеством 
постоянно сменяющихся пользователей и препятствует их широкому распространению. 

Системы дикторонезависимого распознавания речи обладают большими возмож- 
ностями применения и, соответственно, большей сложностью реализации. Основными 
проблемами, с которыми сталкиваются разработчики подобных систем, являются: 

1) отсутствие методов выделения в речевом сигнале дикторонезависимых признаков; 

2) недостаточная робастность алгоритмов распознавания речи к различным воз- 
можным искажениям сигнала на входе системы, вызванных шумом окружающей 
среды и звукозаписывающего оборудования, что приводит к значительному понижению 
точности работы. 

Важнейшим этапом обработки речи в процессе распознавания является выделение 
информативных признаков, однозначно характеризующих речевой сигнал. Существует 
некоторое число математических методов, анализирующих речевой спектр. Здесь 
самым широко используемым является преобразование Фурье, известное из теории 
цифровой обработки сигналов [2]. Данный математический аппарат хорошо себя 
зарекомендовал в данной области, имеется множество методик обработки сигналов, 
использующих в своей основе преобразование Фурье. Несмотря на это, постоянно 
ведутся работы по поиску иных путей параметризации речи. Одним из таких новых 
перспективных направлений является вейвлет-анализ, который стал применяться для 
исследования речевых сигналов сравнительно недавно [3]. 

Робастные дикторонезависимые параметры, описывающие акустические характе- 
ристики фонетических классов звуков речи, о которых пойдет речь в данной работе, 
используют преобразование Фурье и вейвлет-анализ. 

Цель данной работы — разработка алгоритмов сегментации и классификации РС 
в системах дикторонезависимого распознавания изолированных команд. 

Для достижения поставленной цели необходимо решить следующие задачи: 

1. Определение границ речи в поступившем речевом потоке с использованием 
автоматической настройки под шум окружающей среды и звукозаписывающего обору- 
дования. 

2. Классификация фреймов РС в терминах обобщенной фонетической транскрип- 
ции на базе параметров, отражающих особенности спектральной плотности звуков речи, 
принадлежащих разным фонетическим классам, что обеспечит дикторонезависимость 
процесса классификации. 


Определение границ речи в звуковом сигнале 


В данной работе для определения границ речи использовался аппарат вейвлет- 
преобразований, в частности, быстрое вейвлет-преобразование (БВП) Добеши. Вейвлет- 
спектр дает усредненную величину обычного спектра Фурье в окрестности центральной 
частоты вейвлет-фильтра, и усреднение тем грубее, чем выше частота. Таким образом, 
производится сглаживание спектра, что в системах распознавания речи используется 
для понижения чувствительности к шумам и искажениям сигнала. 

Вейвлет-анализ сигналов на основе БВП аналогичен двухканальной фильтрации с 
помощью фильтра низких частот и полосовых фильтров с расширяющейся полосой. 
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В результате применения БВП к сигналу с частотой дискретизации /, частотный 
диапазон разбивается на полосы фильтром низких частот с частотой среза Г, /2/тах 


и полосовыми фильтрами с полосами пропускания [/, /2/"; 1, /2/],1=1, Лик. 


В работе предлагается двухэтапный УАП-алгоритм (УАР — Уотсе Аснуцу Раесюг, 
детектор активности речи), который наряду с адаптацией к шуму учитывает акусти- 
ческие особенности широких фонетических классов звуков речи. В основе алгоритма 
лежит предположение о том, что первые три поступивших на вход системы буфера 
данных содержат только шум. 

На первом этапе (обучение шуму) выполняется вейвлет-разложение сигнала &(и), 


содержащего образец шума, по уровням /=1, /„„х ‚ затем этот сигнал разбивается на 


неперекрывающиеся фреймы. Длина фрейма АМ зависит от периода основного тона 
и составляет примерно 0,02 с. Для каждого А-го фрейма сигнала &(п) по всем уровням 
разложения вычисляется Ё, ( 7) — энергия вейвлет-спектра сигнала. На основе 


массива этих значений определяются пороги: 


а(}п)= М(Е(1))+ п /Б(Е(1), (1) 


где М(Е()) и 0(ЕС)) — несмещенные оценки математического ожидания и 
дисперсии энергии вейвлет-спектра шума на уровне 7. Для определения границ речи 
было выделено два множества масштабов: 


= Пе 7} — соответствует высокочастотной части спектра, в которой сосре- 


доточена энергия шумных глухих щелевых или смычно-щелевых звуков; 
—М,= { ая Ток — соответствует низкочастотной части спектра, в которой 


сосредоточена энергия вокализованных звуков. 
Перед выполнением второго этапа (определения границ речи) вводятся две поро- 
говые величины: итРи[ и тахР5Г. — число фреймов, соответствующее минимальной 
длине фонемы и максимальной длине шумного глухого смычного звука. 
На втором этапе для сигнала, содержащегося в поступившем буфере данных, 
выполняется вейвлет-преобразование, после чего для каждого А-го фрейма сигнала 


вычисляется энергия спектра Ех (7) и проверяется выполнение условия: 


1, (5/, ЕМ, : Е (р) Е =м; : Е, (1,)>а(},,п)) 
0, иначе 


ВООЦЕ,п) = 


Если для текущего А-го фрейма ВООМА,п)ЕТ, то считается, что этот фрейм содер- 
жит речь. В наших исследованиях для определения границ речи и =3. 
Таким образом, номера отсчетов сигнала Г. и К, являющихся левой и правой грани- 
цами слова, определяются согласно следующим условиям: 
3/:%7:/<71<1+т (ВООЦЕ,3) = 0) л (ВООЦ,3) = 1) ^л (т> ттРиЕ) > Е =1АМ 


9 > 1: Уй г <1<г+т (ВОО,3) = 1) л (ВОО) = 0) л (т > тахРЯ) = В =гАМ 


Алгоритм определения границ речи в звуковом потоке можно представить в виде 
диаграммы состояний и переходов, изображенной на рис. 1. 
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Рисунок 1 — Диаграмма состояний и переходов для определения границ речи 


Классификация фреймов речевого сигнала 


Звуковой сигнал, полученный в результате выполнения процедуры, описанной 
в п.1, может быть разбит на участки, соответствующие широким фонетическим клас- 
сам (ШФК) звуков речи: вокализованным (Гос); шумным глухим щелевым или смычно- 
щелевым (5й); шумным глухим смычным (Р). 

Как известно, помимо формант и основного тона, ярко выраженных в спектре 
вокализованных звуков, спектральная картина звуков определяется и шумовым источ- 
ником — турбулентным или импульсным шумом при образовании щелевых и смычных 
согласных звуков, которые представлены в виде иррегулярного распределения акусти- 
ческой энергии во времени [4], [5]. Дикторонезависимость процедуры сегментации и 
классификации обеспечивают именно эти особенности спектральной плотности звуков 
речи, принадлежащих разным ШФИК, для описания которых в работе предложено две 
характеристики, использующие различные спектральные представления РС, а также адап- 
тацию под шум. 
На этапе обучения шуму для каждого фрейма сигнала &(п), содержащего образец 
шума (первые три поступивших на вход системы буфера данных), выполняется быстрое 
преобразование Фурье, после чего вычисляется значение характеристики (2): 
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АМ- 


ХЗЕРТАИ) 


= оипа 
Р®)- ых. | ©) 


УПЕРТА) 


1=0 


где А — номер фрейма; НЕВоип4 -— номер частоты, соответствующей левой гра- 
нице высокочастотной части спектра, в которой сосредоточена энергия звуков из класса 


5Й (около 4 кГц); [ЕЕ Г, __ — массив коэффициентов Фурье-спектра, полученный 


для К-го фрейма. 

По аналогии с алгоритмом определения границ речи, для адаптации под шум 
на основе несмещенных оценок математического ожидания М(Р) и дисперсии О(Р), 
полученных по массиву значений (2) для сигнала &(п), определяется порог: 


а(")= м(Р)+"./РХР) (3) 


Величина (2) характеризует отношение энергии спектра в высокочастотной 
области к энергии в низкочастотной. Очевидно, что для фреймов, содержащих звук, 
спектр которых сосредоточен в области высоких частот, значение Р(А) будет больше 1. 
К таким звукам, помимо шумных щелевых, могут относиться и вокализованные звуки, 
например, гласные верхнего подъёма ([и], [э]), которые всегда отличает относительно 
большая роль высших формант, что сказывается на поведении плотности распреде- 
ления спектра [4], [5]. Для большинства вокализованных звуков спектр сосредоточен 
в области 1,5 кГц, следовательно, значения Р(А) не превысят 1. Значения (2), полученные 
для шумных глухих смычных (паузоподобных) звуков, меньше порога (3). Таким об- 
разом, в набор решающих правил для классификации фреймов входят следующие: 


Р(к)> а(п)> КЕ бйу ке Гос, Р(к)< а(п)> КЕРУКЕТос (4) 


Поведение характеристики (2) для звуков разных классов наглядно демонстрирует 
рис. 2, на котором показаны графики амплитудно-временного представления (АВП) 
и значений Р(А) для реализации слова «шесть», горизонтальная линия соответствует 
значению порога (3) при и = 5. 

Для окончательной классификации на классы Гос, 5й и Р используются значе- 
ния вейвлет-спектра на множестве уровней разложения М, . Считается, что поступив- 
ший на вход алгоритма классификации РС обязательно содержит вокализованные 
звуки, энергия которых на множестве уровней разложения М, существенно больше 


энергий невокализованных, к которым относятся звуки классов 5й и Р. Как показали 
исследования, значения энергий вейвлет-спектра на этих уровнях разложения для 
малоамплитудных шумных звонких щелевых ([в], [в’]) и шумных звонких смычных 
([6], [д], [1], [6°], [д’], [г’]) согласных сравнима с энергией спектра ударных гласных, 
а значения энергий звуков классов 5й и Р составляет менее 10% от энергии высокоам- 
плитудных гласных. На рис. 3, 4 показан график АВП реализации слова «шесть» (рис. 3) 
и слова «два» (рис. 4), а также результат БВП на уровнях /=5 (верхний график) и /=6 
(нижний график), горизонтальные прямые соответствуют значению, составляю- 
щему 10 % от максимального значения коэффициента вейвлет-спектра РС на соответ- 
ствующих уровнях. 
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Рисунок 2 — Графики АВП (вверху) и значений Р(А) (внизу), полученные для 
реализации слова «шесть» 


Рисунок 3 — Графики АВП (вверху) и коэффициентов вейвлет-спектра при /=5,6 
(внизу), полученные для реализации слова «шесть» 


Исходя из этих соображений для классификации используется характеристика 
(5) и набор решающих правил (6): 


1, если ЗЕМ: Е, (1, ) > 0.ПтахЁГеуЕи (7, 
В | иначе | | | | 


(5) 
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где тахГеуЕп(Т) — максимальное значение энергии коэффициента вейвлет- 


спектра на уровне /. 


Воо (К) =0=>КебЙУКЕР, ВооМ(Е)=1= К Е Гос 


(6) 


Ри м РА, г | 
Г. ЛА, 
Ки ИАА 


ПЕ ОИ ВЕРЬ А И УСО ЕЕ ВА И М ОЕ] 


Рисунок 4 — Графики АВП (вверху) и коэффициентов вейвлет-спектра при /=5,6 


(внизу), полученные для реализации слова «Два» 


> 
нива О 


Таким образом, особенности спектральной плотности звуков речи каждого из ШФК, 
описываемые характеристиками (2), (5), позволяют провести классификацию фреймов 


РС по набору правил (4), (6), как показано на рис. 5. 


К-ый фрейм РС 
р —_ Раб) 
7` Е 
РУ Пс эй \/ с 
ВооЮ=0 в } еовИ®- ое ^ ВооиЮ-=0 
в Гос $П 


Рисунок 5 — Дерево решений для классификации фреймов РС 
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По результатам классификации фреймов РС легко провести сегментацию: подряд 
идущие фреймы, принадлежащие одному ШФК, объединяются в один сегмент. По по- 
лученной сегментации строится обобщенная фонетическая транскрипция, которая 
позволяет описать общую структуру слова, т.е. модель чередования гласных, соглас- 
ных, шипящих и т.д. В русском языке слов с одинаковой структурой относительно 
мало, например, на 100-тысячный словарь Зализняка максимальное число слов с оди- 
наковой структурой — около 150, то есть меньше 0,2 %. Таким образом, в результате 
обобщенной классификации выводятся в качестве сокращенного списка кандидатов 
на распознавание только те слова, которые имеют ту же структуру, что и распознаваемое. 
Верное распознавание последовательности классов при любых ошибках внутри классов 
приводит к значительному сокращению числа слов-кандидатов на распознавание. 


Исследование эффективности методов 


Было проведено численное исследование предложенных алгоритмов на 10 дик- 
торах (мужчин и женщин с разными голосовыми данными), каждый из которых про- 
износил по 15 слов, содержащих фонемы разных классов. Запись проводилась в формате 
\У/АУ РСМ с частотой дискретизации 22 050 Гц и глубиной квантования 16 бит с по- 
мощью микрофонов с разными характеристиками. Для вычисления порога (1) исполь- 
зовался параметр и=3, для вычисления порога (3) — и=3. БВИ выполнялось при /„=6, 


полученные вейвлет-спектры анализировались на уровнях М, = 1 2} и М, = $5,6}. 


Качество классификации сегментов оценивалось по функционалу: 
Е= > тах | (7) 
п 

где и — общее количество сегментов, принадлежащих разным ШФК, по всем реа- 
лизациям слов всех дикторов, т — количество правильно классифицируемых сегментов. 

Вероятность правильной классификации сегментов, определенная по формуле (7), 
составила 0,984. Полученное высокое значение вероятности правильной классифи- 
кации на речевом материале, принадлежащим разным дикторам, свидетельствует об эф- 
фективности разработанных алгоритмов и перспективности предложенного подхода 
применительно к задачам дикторонезависимого распознавания речи. 


Выводы 


Рассмотренный в работе подход позволяет достаточно надежно и дикторонезави- 
симо выделять в звуковом потоке фрагменты, содержащие речь, и выполнять сегмента- 
цию этих фрагментов с одновременной классификацией сегментов по широким фонети- 
ческим классам. Эффективность предложенного подхода подтверждается проведенными 
исследованиями, в результате которых вероятность правильной классификации сегментов 
составила 0,984. Дальнейшие исследования в данном направлении предусматривают 
поиск робастных признаков как для более детальной классификации сегментов, так 
и для распознавания слова как единого целого. 
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Т.В. Ермоленко, О.В. Жук 

Класифкащя фреймв мовленневого сигналу в задачах дикторонезалежного розшзнавання мовлення 
У статт! запропоновано метод визначення границь мовлення у потоц! мовлення, що надйшов на вх1д 
системи розшзнавання, з використанням автоматичного налаштування шд шум оточуючого середовища та 
звукозаписуючого обладнання, а також алгоритм класиф1каци фреймв мовленневого сигналу у терм!нах 
узагальнено! фонетично! транскрипци. Параметри, що було використано, базуються на рзних спектральних 
представленнях сигналу, в1дображають особливост! спектрально! пильност! звуюв мовлення, як! належать до 
разних фонетичних класв, що забезпечуе дикторонезалежнсть процесу класифкаци. 


Т.Г. Уегтоепко, А.Г. ИйиЕ 

Зреесй $12па| йгатез с1а5$Шсайоп ш Фе та5К$ оЁ зреаКег-ш4ерепдепЕ 5реесв гесоо! оп 

Тре тефо4 Юг устсе асйуйу деесНоп ш а сарбиге4 зреесВ збгеата УЛ ашютайс адарайоп 0 епупоптеп@| ап4 
зоипа-сараге Баг4\аге по1зез, ап Фе а]еоги та г зреесБ э1епа| Натез СаззИсайоп ш Фе {егпз оЁ 
зепегаПте4 рБопейс гапзсирноп аге ргорозе4 ш фе агафе. ТЬе зреаКег-ш4ерепдепсе 1$ геасвед Бесаизе оЁ фе 
рагатаег$ изе4 шт йе ЧаззЙсаНоп ргосез$. ТВезе рагатаегз аге Базе оп Ф@ИЁегепй зресёга| гергезетайопз 
ога $1епа1 ап4 геНес( зресёга| 4епзу зресез оЁ зреесВ зоип4$. 
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